แก่นแท้ของการเรียนรู้ปัญญาประดิษฐ์สมัยใหม่มักประสบกับ ความพึ่งพาในตัวหุ้มระดับสูงผู้ปฏิบัติงานหลายคนเชื่อว่าการเป็นผู้เชี่ยวชาญนั้นเกี่ยวข้องกับเพียงแค่การเชื่อมต่อการเรียกใช้ API หรือปรับแต่งไวยากรณ์คำสั่งให้แม่นยำ อย่างไรก็ตาม วิศวกรรมโมเดลภาษาขนาดใหญ่ที่แท้จริงจำเป็นต้องก้าวข้ามความเข้าใจแบบทั่วไปเหล่านี้ เพื่อทำความเข้าใจกลไกของเทนเซอร์ในโครงสร้างย่อยและพื้นฐานทางคณิตศาสตร์ ซึ่งช่วยให้สามารถปรับประสิทธิภาพฮาร์ดแวร์และแก้ไขปัญหาที่ซับซ้อนได้
1. คำถามสำคัญของความเชี่ยวชาญ
วิศวกรรมโมเดลภาษาขนาดใหญ่ (LLM) คือการจัดการคำสั่งหรือไม่? หรือมันต้องการความเข้าใจแบบครบวงจรในพื้นฐานการคำนวณและการพัฒนาสถาปัตยกรรมที่ทำให้มันเกิดขึ้น? การพึ่งพาเฉพาะอัปเปอร์เอพีไอจะสร้างข้อจำกัดเมื่อระบบล้มเหลว โดยเฉพาะในช่วง:
- การระเบิดของเกรเดียนต์ในรอบการฝึกอบรมที่กำหนดเอง
- การเปลี่ยนจากสถาปัตยกรรมคลาวด์แบบรวมศูนย์ไปยังบริการไมโครเซอร์วิสท้องถิ่นที่มีประสิทธิภาพ
- การปรับประสิทธิภาพระดับฮาร์ดแวร์สำหรับการคาดการณ์ที่มีความหน่วงต่ำ
2. พื้นฐานทางคณิตศาสตร์
เพื่อข้ามข้อผิดพลาดของอัปเปอร์เอพีไอ วิศวกรต้องยึดมั่นในหลักสี่ประการดังต่อไปนี้:
- พีชคณิตเชิงเส้น:การคูณเมทริกซ์และการแยกตัวประกอบค่าเฉพาะ (eigenvalue decomposition) สำหรับเวกเตอร์ในมิติสูง
- แคลคูลัสหลายตัวแปร:เข้าใจกระบวนการแบ่งกระจายย้อนกลับ (backpropagation) และการไหลของเกรเดียนต์
- ความน่าจะเป็นและสถิติ:การจัดการผลลัพธ์ที่มีความสุ่ม (stochastic outputs) และการปรับสมดุลหลังการฝึกอบรม
- ทฤษฎีบทการประมาณแบบทั่วไป:ยอมรับว่าแม้ชั้นซ่อนเดียวจะสามารถประมาณฟังก์ชันใด ๆ ได้ แต่ความท้าทายในโลกแห่งความจริงอยู่ที่การสร้างความเป็นทั่วไป (generalization) และการหลีกเลี่ยงปัญหาเกรเดียนต์หายไป (vanishing gradient problem)